توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
نویسنده بهناز حیدری دهکردی
استاد راهنما ولی درهمی
تعداد صفحات: ۱۵ صفحه ی اول
سال انتشار 1390

چکیده

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می باشد. لذا، تولید عمل هر عامل نه تنها به وضعیت محیط بلکه به عملی که عامل های دیگر انتخاب می کنند وابسته است. بنابراین با توجه به پیچیدگی طراحی از روش های یادگیری برای تنظیم پارامتر های انتخاب عمل عامل ها استفاده شده است. روش-هایی که برای حل این گونه مسائل ارائه شده اند، اکثراً مبتنی بر اشتراک دانش عامل ها از طریق ایجاد توابع ارزش-عمل برای همه ی عمل های ممکن خود عامل و سایر عامل ها، در هر حالت است. با افزایش تعداد عامل ها ابعاد مسئله به صورت نمایی گسترش پیدا می کند. که باعث افزایش زمان یادگیری و افزایش حافظه مورد نیاز برای حل مسئله است. اکثر روش های ارائه شده با توجه به مطالعات انجام شده برای محیط ها با حالت و عمل گسسته تدوین شده اند؛ با توجه به اینکه مسائل دنیای واقعی مانند هدایت ربات ها ماهیت پیوسته دارند، نیاز به الگوریتم های پیوسته کارا داریم. در این پایان نامه دو ایده جدید برای حل مسئله همکاری در محیط های چند عامله با فضای حالت پیوسته ارائه شده است. مقادیر تابع ارزش حالت-عمل و ارزش حالت هر کدام تالی یک سیستم فازی سوگنو مرتبه صفر جداگانه هستند در مراحل آموزش مقادیر تالی قواعد تنظیم می شوند. تعداد ورودی های سیستم های فازی برابر با ابعاد فضای حالت است. ایده اصلی از روش یادگیری سارسا فازی ارائه شده است. نتایج تجربی بر روی مسئله قرار گرفتن متقارن عامل ها حول یک میز چندضلعی که نمونه ساده ای از فرم-بندی است؛ حاکی از افزایش سرعت یادگیری و بهبود کارایی سیستم است.

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک

در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...

متن کامل

یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک

متن کامل

توسعه سامانه‌های چند عامله و یادگیری تقویتی در کنترل هوشمند چراغ‌های راهنمایی

امروزه یکی از معضلات جوامع شهری، ازدحام و ترافیک خودروها در معابر شهری است که منجر به آسیب‌های مختلف اقتصادی، محیط زیستی و اجتماعی می‌شود. برای جلوگیری از این آسیب‌ها، نیاز به بهبود زیر ساخت‌های فعلی حمل و نقل در شهرهای بزرگ بیش از پیش احساس می‌شود. تمرکز مقاله حاضر بر روی کنترل هوشمند چراغ‌های راهنمایی به عنوان یکی از شاخه‌های سیستم‌های حمل و نقل هوشمند با استفاده از سامانه‌های چند عامله یادگی...

متن کامل

توسعه کنترلر هوشمند چراغ‌های راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک

افزایش روزافزون تعداد خودروها و در پی آن ترافیک‌های سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را به‌خوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغ‌های راهنمایی بر پایه یادگیری تقو...

متن کامل

روشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

متن کامل

ترکیب یادگیری تقویتی پیوسته و یادگیری باناظر برای ناوبری ربات

استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّ...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر

کلمات کلیدی

یادگیری تقویتی سیستم های چند عامله فرم بندی

میزبانی شده توسط پلتفرم ابری doprax.com